查看原文
其他

从 0 到 1:通关多模态深度学习

PaperWeekly 2023-06-03

多模态文本生成是指综合使用图像、视频、文本等多种模态信息,进而自动化地生成符合人类视觉、文化的文本片段描述。


这要求其不仅仅考虑文本生成的流畅性、语言丰富性,更要与视觉模态相结合,综合考量时空位置信息。


而多模态图像生成,则是要打开模型的拟合固定思维,根据文本描述,去充分的挖掘显式信息和隐式信息,产生丰富多彩的图像信息。


因此,综合使用视频片段、图片等多种信息进行生成是CV与NLP交叉的前沿热点领域


4月27晚20:00,我们特地准备了由深耕“多模态领域”多年的卓越老师为我们带来《一节课通关多模态深度学习》,内容非常干货!



扫描下方二维码,支付0.01元获取课程

购买后务必添加客服微信领取论文合集


 直播内容

部分PPT展示(完整课件会在直播后免费分享


 直播福利


精选多模态论文合集


扫描下方二维码,支付0.01元获取课程

购买后务必添加客服微信领取论文合集



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存